Para as análises apresentadas a seguir, foram utilizadas as bibliotecas tidyverse, ggplot2, dplyr e plotly. Os dados usados para essa análise, foram:
glimpse(atividade)
## Observations: 608
## Variables: 19
## $ id_parlamentar <chr> "204554", "204521", "204379", "204560", "2…
## $ casa <chr> "câmara", "câmara", "câmara", "câmara", "c…
## $ nome_eleitoral <chr> "ABÍLIO SANTANA", "ABOU ANNI", "ACÁCIO FAV…
## $ partido <chr> "PR", "PSL", "PROS", "PSDB", "NOVO", "PP",…
## $ UF <chr> "BA", "SP", "AP", "BA", "SP", "GO", "MG", …
## $ twitter <chr> "AbilioSantana_", "abouannipv", "FavachoAc…
## $ seguidores <dbl> NA, NA, NA, NA, 4652, NA, NA, NA, NA, NA, …
## $ segue <dbl> NA, NA, NA, NA, 315, NA, NA, NA, NA, NA, N…
## $ n_proprio <dbl> 0, 0, 0, 0, 99, 0, 0, 0, 0, 0, 0, 0, NA, 4…
## $ n_retweet <dbl> 0, 0, 0, 0, 9, 0, 0, 0, 0, 0, 0, 0, NA, 1,…
## $ engaj_total <dbl> 0, 0, 0, 0, 7090, 0, 0, 0, 0, 0, 0, 0, NA,…
## $ engaj_total_proprio <dbl> 0, 0, 0, 0, 6701, 0, 0, 0, 0, 0, 0, 0, NA,…
## $ engaj_total_retweet <dbl> 0, 0, 0, 0, 389, 0, 0, 0, 0, 0, 0, 0, NA, …
## $ engaj_mediano <dbl> 0.0, 0.0, 0.0, 0.0, 26.5, 0.0, 0.0, 0.0, 0…
## $ engaj_mediano_proprio <dbl> 0.0, 0.0, 0.0, 0.0, 22.5, 0.0, 0.0, 0.0, 0…
## $ engaj_mediano_retweet <dbl> 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.…
## $ engaj_max <dbl> 0, 0, 0, 0, 1031, 0, 0, 0, 0, 0, 0, 0, NA,…
## $ engaj_max_proprio <dbl> 0, 0, 0, 0, 1031, 0, 0, 0, 0, 0, 0, 0, NA,…
## $ engaj_max_retweet <dbl> 0, 0, 0, 0, 99, 0, 0, 0, 0, 0, 0, 0, NA, 4…
Para uma boa análise dos dados mostrou-se imprescindível a utilização de fórmulas estátisticas de correlação para entender melhor a relação entre duas diferentes variáveis. Para isso, foram criadas colunas com o resultado do cálculo das fórmulas de pearson, spearman e kendall, afim de entender mais claramente as relações.
## # A tibble: 67 x 4
## correlacao pearson spearman kendall
## <chr> <dbl> <dbl> <dbl>
## 1 n_proprio + engaj_mediano_retweet -0.0322 -0.0970 -0.0787
## 2 n_retweet + engaj_mediano_proprio -0.0254 0.129 0.0992
## 3 segue + engaj_mediano_retweet -0.0197 0.0858 0.0693
## 4 segue + engaj_total_proprio -0.0147 0.236 0.159
## 5 segue + engaj_mediano_proprio -0.0107 0.0402 0.0287
## 6 segue + engaj_total -0.00872 0.260 0.175
## 7 segue + engaj_mediano -0.00592 0.167 0.114
## 8 n_proprio + engaj_mediano_proprio -0.00318 0.256 0.177
## 9 engaj_total_proprio + engaj_mediano_retweet -0.00280 -0.0523 -0.0430
## 10 engaj_mediano_retweet + engaj_max_proprio -0.00116 -0.0232 -0.0193
## # … with 57 more rows
## # A tibble: 67 x 4
## correlacao pearson spearman kendall
## <chr> <dbl> <dbl> <dbl>
## 1 engaj_mediano_proprio + engaj_mediano_retweet 0.00703 -0.410 -0.340
## 2 n_proprio + engaj_mediano_retweet -0.0322 -0.0970 -0.0787
## 3 engaj_total_proprio + engaj_mediano_retweet -0.00280 -0.0523 -0.0430
## 4 engaj_mediano_retweet + engaj_max_proprio -0.00116 -0.0232 -0.0193
## 5 segue + engaj_mediano_proprio -0.0107 0.0402 0.0287
## 6 seguidores + engaj_mediano_retweet 0.0322 0.0786 0.0641
## 7 segue + engaj_mediano_retweet -0.0197 0.0858 0.0693
## 8 engaj_mediano + engaj_mediano_retweet 0.116 0.0914 0.0752
## 9 n_retweet + engaj_mediano_proprio -0.0254 0.129 0.0992
## 10 engaj_total + engaj_mediano_retweet 0.0718 0.150 0.120
## # … with 57 more rows
## # A tibble: 67 x 4
## correlacao pearson spearman kendall
## <chr> <dbl> <dbl> <dbl>
## 1 engaj_mediano_proprio + engaj_mediano_retweet 0.00703 -0.410 -0.340
## 2 n_proprio + engaj_mediano_retweet -0.0322 -0.0970 -0.0787
## 3 engaj_total_proprio + engaj_mediano_retweet -0.00280 -0.0523 -0.0430
## 4 engaj_mediano_retweet + engaj_max_proprio -0.00116 -0.0232 -0.0193
## 5 segue + engaj_mediano_proprio -0.0107 0.0402 0.0287
## 6 seguidores + engaj_mediano_retweet 0.0322 0.0786 0.0641
## 7 segue + engaj_mediano_retweet -0.0197 0.0858 0.0693
## 8 engaj_mediano + engaj_mediano_retweet 0.116 0.0914 0.0752
## 9 n_retweet + engaj_mediano_proprio -0.0254 0.129 0.0992
## 10 segue + engaj_mediano -0.00592 0.167 0.114
## # … with 57 more rows
Será que se um político tweetar mais isso significa que ele tem mais participação nos seus próprios tweets?
corr = dados %>%
summarise(pearson = cor(n_proprio, engaj_total_proprio, method = "pearson"),
spearman = cor(n_proprio, engaj_total_proprio, method = "spearman"),
kendall = cor(n_proprio, engaj_total_proprio, method = "kendall"))
vis = dados %>%
ggplot(mapping = aes(n_proprio, engaj_total_proprio)) +
geom_point(alpha=.4, color = "#D81159") +
scale_x_log10() +
scale_y_log10() +
geom_smooth(aes( group = 1 ), colour = "#218380")
ggplotly(vis)
corr
## # A tibble: 1 x 3
## pearson spearman kendall
## <dbl> <dbl> <dbl>
## 1 0.423 0.751 0.568
Através do gráfico, nota-se que, além de monotônica e positiva, há uma correlação linear moderada e relação logaritmica forte, como evidenciados nos cálculos de person e spearman respectivamente.
Será que se um político retweetar mais isso significa que ele tem mais participação nos retweets?
corr = dados %>%
summarise(pearson = cor(n_retweet, engaj_total_retweet, method = "pearson"),
spearman = cor(n_retweet, engaj_total_retweet, method = "spearman"),
kendall = cor(n_retweet, engaj_total_retweet, method = "kendall"))
vis = dados %>%
ggplot(mapping = aes(n_retweet, engaj_total_retweet)) +
geom_point(alpha=.4, color = "#FFC857") +
scale_x_log10() +
scale_y_log10() +
geom_smooth(aes( group = 1 ), colour = "#084C61")
ggplotly(vis)
corr
## # A tibble: 1 x 3
## pearson spearman kendall
## <dbl> <dbl> <dbl>
## 1 0.743 0.913 0.770
No gráfico, pode-se ver que os dados estão dispostos de forma que não há muitos pontos fugindo à tendência geral. Com o cálculo de correlação, nota-se, através de pearson, que há uma correlação linear forte.